Identification of Thermophilic Proteins Based on Sequence-Based Bidirectional Representations from Transformer-Embedding Features

نویسندگان

چکیده

Thermophilic proteins have great potential to be utilized as biocatalysts in biotechnology. Machine learning algorithms are gaining increasing use identifying such enzymes, reducing or even eliminating the need for experimental studies. While most previously used machine methods were based on manually designed features, we developed BertThermo, a model using Bidirectional Encoder Representations from Transformers (BERT), an automatic feature extraction tool. This method combines variety of and engineering methods, while relying single-feature encoding protein sequence alone input. BertThermo achieved accuracy 96.97% 97.51% 5-fold cross-validation independent testing, respectively, thermophilic more reliably than any described predictive algorithm. Additionally, was tested by balanced dataset, imbalanced dataset with homology sequences, results show that best robustness comparied state-of-the-art methods. The source code is available.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

translation of collocations from english into persian, based on ghazalas theory

غزالا همایندها را به صورت ترکیبی از دو یا چند واژه که همواره در متون مختلف زبان ها همراه با هم می آیند تعریف می نماید. از دیدگاه او روند رو به رشد میل به ترجمه ی همایندها در مطالعات ترجمه، به دلیل اهمیت آنها در انسجام ساختار زبان است. این پایان نامه اساسا به ترجمه ی همایندها منحصر شده است. هدف آن بررسی کاربرد راهکارهای غزالا در مورد ترجمه ی همایندها از انگلیسی به فارسی است. هدف دیگر آن یافتن پر...

15 صفحه اول

study of hash functions based on chaotic maps

توابع درهم نقش بسیار مهم در سیستم های رمزنگاری و پروتکل های امنیتی دارند. در سیستم های رمزنگاری برای دستیابی به احراز درستی و اصالت داده دو روش مورد استفاده قرار می گیرند که عبارتند از توابع رمزنگاری کلیددار و توابع درهم ساز. توابع درهم ساز، توابعی هستند که هر متن با طول دلخواه را به دنباله ای با طول ثابت تبدیل می کنند. از جمله پرکاربردترین و معروف ترین توابع درهم می توان توابع درهم ساز md4, md...

application of upfc based on svpwm for power quality improvement

در سالهای اخیر،اختلالات کیفیت توان مهمترین موضوع می باشد که محققان زیادی را برای پیدا کردن راه حلی برای حل آن علاقه مند ساخته است.امروزه کیفیت توان در سیستم قدرت برای مراکز صنعتی،تجاری وکاربردهای بیمارستانی مسئله مهمی می باشد.مشکل ولتاژمثل شرایط افت ولتاژواضافه جریان ناشی از اتصال کوتاه مدار یا وقوع خطا در سیستم بیشتر مورد توجه می باشد. برای مطالعه افت ولتاژ واضافه جریان،محققان زیادی کار کرده ...

15 صفحه اول

Artificial Intelligence Based Approach for Identification of Current Transformer Saturation from Faults in Power Transformers

Protection systems have vital role in network reliability in short circuit mode and proper operating for relays. Current transformer often in transient and saturation under short circuit mode causes mal-operation of relays which will have undesirable effects. Therefore, proper and quick identification of Current transformer saturation is so important. In this paper, an Artificial Neural Network...

متن کامل

the effect of genre-based teaching on reading comprehension of literary texts

تحقیق حاضر به بررسی کاربرد روش ژانر-محور را در محیط آموزش زبان عمومی می پردازد.روش ژانر-محور به زبان آموزان کمک میکند که در زمینه خوانش پیشرفت کنند. بعضی از محققین معتقد اند که روش تدریس ژانر-محور به تدریج به زبان آموزان کمک می کند تا در درک ژانر های مختلف مهارت یابند (هایلند 2004).همچنین امروزه توجه روز افزونی به اهمیت استفاده از ادبیات در برنامه آموزشی زبان انگلیسی (esl/efl ) شده است. زمانی ک...

15 صفحه اول

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Applied sciences

سال: 2023

ISSN: ['2076-3417']

DOI: https://doi.org/10.3390/app13052858